python train.py --load_model "myfolder/models/RWKV-x060-Jpn-7B-20240816-ctx4096.pth" \
 --wandb "RWKV-LM-RLHF 7B Distillation" --proj_dir "myfolder/Outputs/7b-distillation" \
 --infctx 1 \
 --chunk_ctx 512 \
 --vocab_size 65536 --ctx_len 65536 \
 --epoch_steps 200 --epoch_count 200 --epoch_begin 0 --epoch_save 1 \
 --micro_bsz 2 --n_layer 32 --n_embd 4096 \
 --lr_init 1e-4 --lr_final 1e-6 \
 --warmup_steps 100 --beta1 0.9 --beta2 0.999 --adam_eps 1e-8 \
 --accelerator gpu --devices 1 --precision bf16 \
 --grad_cp 1 --my_testing "x060" \
 --strategy deepspeed_stage_2_offload \
 --layer_profile 'layerprofile/32_TEST.csv' \
 --quant 1 \
 --quant_mode 'nf4'\
 --gpu_arch 'cuda' \
 --limited_lora 0 \
 --distillation 1 \
 --temperature 2 \
 --top_k 100 \
 --alpha 0.5 \
 --smoothing 0.005 \
 --train_data_file 'example/Distillation/output_h5/distillation_dataset.h5'